数据平台建设整体思路阐述和总结

数据仓库与Python大数据 2022-05-08

The following article is from 数据僧 Author 数据僧

数据工作的理解

数据的每一次的输出，永远不会有bug，只有对和错。

数据人永远是在怀疑和被怀疑，孤独和寂寞中完成。每次的输出可能只有一个数字，概率，猜测。。。但是其背后可能是一堆人无数个夜晚不断数据处理，验证，分析，最终剩下的东西(精华)。

数据人不能浮躁，不能功利，必须站在中立立场，客观分析，客观给出结论。

必须要有韧性。特别在创业公司，数据体系基本不完整，各线对数据的认知有高有低。数据收益不是那么显而易见，单单数据仓库建设周期就需要3-5年，坚持和持续的建设显得尤为重要.

数据处理流程

数据收集的途径

埋点

优点：和业务能够紧密结合，支持灵活多变的业务需求。

缺点：有码埋点对业务代码有入侵；无码埋点影响APP性能；有一定维护成本。

爬虫(没做过)

优点：可以抓取应用外数据，丰富数据类型

缺点：有一定开发难度；有一定开发和维护成本；需要考虑数据的应用场景

采购(不做详细描述)

优点：获取数据容易

缺点：注意法律红线；需要谨慎考虑数据应用场景

数据库同步

优点：和业务数据高度一致；和业务需求天然具有关联性。

缺点：对业务数据库有性能消耗，需要考虑数据库性能的极限。

数据收集方案

数据收集方案选择顺序：

数据库同步>埋点>爬虫>采购

方法一：根据DB log 日志。例如Sqlserver 开启CTLog，PG 开启WLlog

方法二：Sqoop 进行数据同步。Sqoop支持目前市场主流数据库数据和Hdfs的相互同步

方法三：依赖消息队列开发数据同步工具。

注意：

1，要考虑数据同步的时候对业务数据库的压力。尽量使用从库，对没有从库的业务一定要考虑让步策略，异常策略，一切以业务正常运行为前提。
2，充分考虑数据安全，在大数据安全不够健全的情况下，一定要对于敏感业务的数据，可以通过脱敏，混淆，隔离等方式处理。

埋点

埋点-前端埋点
场景：主要用于用户行为分析，UI分析，优化用户体验场景，非精准类的数据分析，和后端数据做交叉验证

埋点-服务端埋点
场景：对数据数据库同步方案的补充，大多用做BI统计，对数据精准度有一定要求的数据分析，和前端数据做交叉验证

前端埋点有那些特点
1，埋点变更受发版限制
2，前端数据上报需要在wifi条件下上报数据，数据会有延迟
3，对Key做特殊处理，前端埋点可读性差，需要做好字典
4，前端埋点位置需要注意默认加载位置的埋点，否则会造成埋点数据虚高
5，对前端代码会有入侵

服务端数据埋点有哪些特点
1，埋点变更灵活
2，数据准确度介于数据库同步和前端埋点之间
3，埋点时机，需要在数据写入数据库后
4，对服务端代码会有入侵

前后端埋点如何设计埋点描述内容：什么主体在什么时间做了什么事情

埋点通用设计：公共埋点+业务埋点

埋点格式：JSON结构。因为json具有较好的兼容性，大多数平台都能够比较容易解析。数据传输高效。

埋点原则：

1.一旦埋点上线，并且被用于数据分析，尽量不要做删除操作，多做追加操作。

2.埋点设计过程中，不可闭门造车，一定要和充分了解业务，充分沟通，自上而下，从全局到局部做设计。

5，埋点实施特别是对于从0到1 的平台搭建，各个业务线和团队，一定会遇到很大困难，一定要有极强执行力和耐力，否则埋点在初期会推进的非常缓慢，初期基本上需要手把手去引导

埋点监控检查埋点是否错埋

检查埋点是否漏报

埋点字段的类型和上报的数据类型是否一致

非空字段是否有控制

7，异常埋点处理策略如果业务理解透彻，埋点明确，需求交付时间充足，校验机制成熟可靠，异常数据肯定不允许进入后面的数据仓库，但是需要标记并作统计。

如果业务理解模糊，需求交付时间不充足，可以收集，具体使用的时候在做兼容或者其它处理。

收集工具：Flume需要在各个业务服务器安装agent。

管道内存和磁盘设置，数据不易丢失。但是在实际工作中出现过Flume进程不工作的情况，需要健全对Flume的监控，防止数据丢失

数据仓库-设计原则全面且深入了解业务，需要和业务专家深入沟通

数据按照最细粒度组织

基于业务过程

推荐扁平的大宽表设计，易用，效率高，消耗的存储可以忽略

数据仓库架构注意表命名规范。

需要确定各层，各表的业务边界，尽量做到表复用，防止表膨胀或者爆炸，造成无法过多的维护负担

数据仓库几个需要关注的点业务矩阵：是前期调研的方法，我们需要把各个业务过程中的每个环节涉及到哪些维度，尽可能穷举出来。

事实：为了量化，事实数据通常用于计算；维度：为了分组和过滤，用于多维度分析；分区：为了快速定位需要的数据

缓慢变化维：为了历史留痕，分析的主体历史状态可以查询

数据仓库需要数据统一，形同含义的业务的命名不要重复

如何制作业务矩阵，如何确定事实表，如何确定维度，如何处理缓慢变化维，如何处理分区，事实和维度如何划分不做细节描述

数据仓库的地位和重要性是整个公司的基础数据，一定要保证安全、可靠、平稳、维护简单，上手容易

是未来走过BI阶段进行数据挖掘、机器学习、神经网络的基石头，在数据仓库没有稳定之前数据挖掘等更上层的数据相关的研究会陷入被动。

数据分析-数据分析发展过程

下面数据分析开展的顺序，可以同时进行，但是数据建设的不同阶段重点会不同，整体发展过程如下：

数据分析发展过程：

1，BI报表：常规的市场，运营分析；抽取指标；经验获取；数据感知能力的培养；数据是二维，更多的是定量分析。

2，多维数据分析：数据是三维，多个三维的数据组成一个数据立方体，最终构成一个完整数据分析矩阵；这里会衍生出更多的指标，和特征；更多的也是定量分析
3，数据挖掘：当数据分析更加复杂，无法通过经验进行合理的分类，无法根据经验提取更多的特征，就需要通过算法模型来处理；这部分还是需要一些经验，人工干预还是比较多一些。定量和定性都会有。
4，机器学习：脱离人工，通过反复训练的出结论，抽取特征。这里更多的是定性分析。
5，神经网络、AI 不懂。
注意：
这里面的任何一个阶段，数据可视化和数据信息化一致都贯穿始终。如何用正确合适的图标展示数据是数据可视化重点考虑的内容。如何提取数据的重点内容，传递一个完整故事是数据信息化要考虑的内容。

数据分析的内容任何分析，都是基于产品和用户两个主题来进行分析。

问题一：我们的产品被什么样的用户使用

问题二：我们的用户都是在怎么使用产品

这两个问题无法分割，关键看每个分析的需求和场景

数据分析流程

1,经验分析：确定问题和论点，通过经验来定

2,数据准备：数据收集，准备数据，确认数据是否完整

数据处理：统一数据格式，去除重复，增补，数据转换，数据分组

3,数据分析及展现：确定数据分析方法，以及合适的图标
专业报告：背景，目的，分析思路，数据展示，结论和建议
4,跟踪、反馈：根据需求，确定是否需要跟踪和收取反馈，持续迭代优化分析报告。

指标体系建设

目标：最终的指标体系指标间能够交叉验证，粒度统一，数据一致，数据可解释
1，明确分析主体
2，确定分析业务过程，找到核心环节，每个环节的维度
3，确定分析粒度
4，明确收益矩阵，确定优先级

数据应用-产品的增值服务这个最容易实现，有直接让用户付费，也有提高产品粘性，提高产品趣味性。例如：淘宝数据魔方，头条后台数据统计，微博的对每个客户开放的数据分析，微信热搜。

数据应用-内部支撑系统

2B-用户生命周期管理

2B-客户生命周期价值曲线

客户生命周期价值曲线

2C-用户生命周期

2C-用户生命周期

2C用户生命周期价值曲线，没有思考过。

独立的数据产品
大多提供的数据数据分析解决方案。方便用户进行数据分析，更加快速获取数据认知，通过数据支撑自身业务发展。
例如：神策，诸葛，growthingIO 都是抽取通用的分析场景，然后产品化。
最终的数据变现只能通过企业自身去实现。还有咨询类企业可以直接通过数据变现。

-End-

▼ 社区推荐 ▼

▼ 十一快乐,回馈读者!自费送33本书『福利』▼ 系列 | 漫谈数仓第二篇NO.2 『数仓建模』
▼ 福利时刻 ▼

01. 公众号后台回复：「快乐」，可参与十一假期33本技术类书籍免费+包邮活动；

02. 公众号后台回复：「加群」，可加入数仓、BI、Python 或资料分享群。

Q: 关于数据仓库，你还想了解什么？

欢迎留言区与大家分享

觉得不错，请把这篇文章分享给你的朋友哦

投稿请联系小助手：iom1128『紫霞仙子』

更多精彩，请在后台点击“紫霞秘籍”查看

！关注不迷路~ 各种福利、资源定期分享！

↓↓↓回馈读者，十一假期送书福利活动正在进行中ing...（点击跳转）

十一快乐，回馈读者！自费送33本书！包邮！先到先得！就是这么任性

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

从地方目标看全国！今年经济增长还是有很高要求

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

数据平台建设整体思路阐述和总结

您可能也对以下帖子感兴趣

震撼！上海开放Google、Meta等国际平台，中国数字化迈出历史性一步！

战争烈度再升级，特朗普加征10%对华关税

特朗普称计划对中国商品征收25%的关税，外交部回应

从地方目标看全国！今年经济增长还是有很高要求

二姐李思林早知道李玟有轻生的念头，居然没一点防备措施！

生成图片，分享到微信朋友圈

数据平台建设整体思路阐述和总结

您可能也对以下帖子感兴趣